草庐IT

Java Quartz 作业持久化

全部标签

hadoop - hadoop作业状态的含义

我运行命令hadoopjob-listall来显示所有提交的作业,它显示的状态含义为:正在运行:1成功:2失败:3准备:4。但现在我有一个状态为5的工作。list命令输出如下:job_201209101415_42976651358332807055userNORMALNA有人知道这是什么意思吗?谢谢! 最佳答案 工作状态5表示已被杀死。请检查此网页链接http://hadoop.apache.org/docs/r0.20.2/api/constant-values.html#org.apache.hadoop.mapred.Job

hadoop - 如何在 hadoop 作业中伪造任务报告?

我正在使用hadoop1.0.3运行一些数据处理作业。我的reducer不写入HDFS,而是让我的reducer将结果直接写入mongoDB。最近我开始面对一个问题;我的工作有时会“超时”并重新启动,我从hadoop控制台收到的消息是“任务attempt_201301241103_0003_m_000001_0无法报告状态601秒”。所以我认为问题在于我的方法,即写入mongodb而不是HDFS。我想伪造hadoop作业状态报告。我怎样才能做到这一点?请帮忙。此外,我观察到我的reducer始终保持0%,只有Map阶段以%显示恒定增量。作业一完成,reducer突然显示100%。谢谢你

java - 从 DistributedCache 读取 Hadoop 作业的分片输出

(标题应该是sharded以反射(reflect)Hadoopsshards其跨多个文件的输出)我将多个Hadoop作业链接在一起。其中一项早期作业生成的输出比其他作业小几个数量级,因此我想将其放入DistributedCache中。这是一个困难的部分。这是我为此编写的代码:FileSystemfs=FileSystem.get(conf);PathpathPattern=newPath(distCache,"part-r-[0-9]*");FileStatus[]list=fs.globStatus(pathPattern);for(FileStatusstatus:list){Di

hadoop - oozie hive hadoop 作业

您好,我可以在配置单元终端中运行配置单元命令,但是当我尝试通过oozie运行它时,我无法运行它,出现一些错误,日志文件如下所示2013-03-2111:55:48,973INFOActionStartXCommand:539-USER[biadmin]GROUP[-]TOKEN[]APP[hive-wf]JOB[0000005-130314190356094-oozie-biad-W]ACTION[0000005-130314190356094-oozie-biad-W@hive-node]Startaction[0000005-130314190356094-oozie-biad-W

hadoop - hadoop作业实际处理时间

我的集群当前被一个作业A占用,它需要很长时间并且具有VERY_LOW优先级。我昨天开始了另一项工作B,而A已经在运行,我认为它应该运行得相当快。但是,我在jobdetails看到用了47分钟。我认为这不是实际处理时间。我试图找出工作真正开始的时间。我可以在哪里查看? 最佳答案 我似乎找不到任何地方可以准确说明您所追求的内容,但您可以在端口50030上的作业跟踪器中查看作业,并查看各个映射器和缩减器的详细信息。在那里,您可以看到每个单独的映射器和缩减器从开始时间到结束时间完成任务所花费的时间。如果在您开始第二份工作时没有任何映射器或缩

hadoop - 执行时间随着 map 作业的增加而增加

我正在尝试使用sqoopimport将一些数据从MySQL迁移到HBase。这是我正在使用的命令:sqoopimport--connectjdbc:mysql://hostname/database--usernameusername-P--query'SELECT*FROMlogsWHERE$CONDITIONS'--split-bylog_id-m4--hbase-tablelogs--column-familycf--hbase-create-table问题是当没有map增加时执行时间会增加。由于并行处理是随着映射器的增加而完成的,因此理想情况下执行时间实际上应该减少。这是模式N

hadoop - 来自 Hadoop PIG 作业的 Lucene 查询

我在Lucene索引中索引了数千个客户名称、替代名称、公司名称等详细信息(索引未存储在HDFS中)。我在HDFS中有大量(>100M)的人员数据,我想使用Lucene索引扫描人员数据,我目前正在使用PIG从HDFS进行数据处理。我正在尝试寻找是否可以运行PIG作业来提取数据并并行执行对Lucene索引的查询(可能通过使用自定义编写的UDF),我无法想象Lucene本地索引是如何加载的并在PIG作业中共享(在Lucene查询之后,如果找到匹配项,我需要匹配的文档ID)。可以使用PIG吗?或者我需要为此编写自定义map-reduce作业?或任何其他建议?谢谢。

hadoop - 如何使文件的 hadoop 复制因子更改持久化

我有一个关于hadoop复制的问题。我使用下面提到的命令更改了hadoop中特定目录中文件的复制因子:hadoopdfs-setrep-R3-w/data/routing成功并将该目录中所有文件的复制因子设置为3。但是,在此目录下写入的任何新文件继续具有默认复制因子,即2。是否有任何选项可以使此更改持久化?实际上,我只希望在此目录下写入的所有新文件始终具有3的复制因子,而不管默认复制因子是什么。 最佳答案 如果您想要默认复制因子以外的东西,则需要在创建文件时明确设置复制因子。目录下的文件是通过mapreduce作业创建的,还是使用其

Hadoop - 提交具有大量依赖项的作业(jar 文件)

我想编写某种“Bootstrap”类,它将监视MQ的传入消息并将映射/归约作业提交到Hadoop。这些作业大量使用了一些外部库。目前我已经实现了这些作业,打包为带有bin、lib和日志文件夹的ZIP文件(我正在使用maven-assembly-plugin将它们联系在一起)。现在我想为Mapper和Reducer提供小型包装器,它们将使用现有应用程序的一部分。据我所知,提交作业时,Hadoop会尝试找出具有映射器/还原器类的JAR文件,并通过网络将此jar复制到数据节点,数据节点将用于处理数据。但不清楚如何告诉Hadoop复制所有依赖项?我可以使用maven-shade-plugin创

eclipse - 无法在 Elastic map reduce 命令行工具中列出当前作业流程?

我已成功安装AmazonElasticMapReduce命令行工具。在列出当前作业流程时,使用以下命令$./elastic-mapreduce--list它抛出以下错误。Error:Requesthasexpired.Timestampdate:2013-07-09T02:48:00-07:00 最佳答案 检查时间戳(即)主节点时间、机器时间应该相等。那么只有你会得到正确的回应。您可以通过putty查看您的主节点实例的时间戳。 关于eclipse-无法在Elasticmapreduce命